草庐IT

Java Quartz 作业持久化

全部标签

hadoop - 将 jars 添加到启动 map reduce 作业的代码的类路径中

我正在尝试从实现Tool接口(interface)的应用程序启动mapreduce作业。该应用程序几乎没有做其他事情,例如mapreduce作业的先决条件。此类使用一些第三方库,如何在运行jar时使用以下命令将这些jar添加到类路径:hadoopjar[args]从这里Cloudera'spost我试图将HADOOP_CLASSPATHenvvar设置为第三方jar,但没有成功。上面提到的第三方jar仅由启Action业的类而不是Mapper/Reducer类需要。所以我不需要把它们放在分布式缓存中。当我在$HADOOP_HOME/lib下复制这些我需要的第三方jar时,它可以工作,但

java - 将输入数据动态添加到 Hadoop Map-Reduce 作业?

我能否在运行时将输入文件或输入数据附加到map-reduce作业而不创建竞争条件? 最佳答案 我认为理论上你可以在输入中添加更多文件,只要它:匹配您的FileInputFormat模式发生在InputFormat.getSplits()调用之前,这确实让您在提交作业后的时间很短。关于计算拆分后的竞争条件,请注意附加到现有文件仅在版本0.21.0之后可用。.即使您可以修改您的文件,您的分割点也已经预先计算好了,而且您的新数据很可能不会被映射器获取。不过,我怀疑这会导致您的流程崩溃。您可以尝试的是禁用文件内的拆分(即为每个文件分配一个映

hadoop - 作业跟踪器和名称节点不以 start-all.sh 开头

我正在尝试安装hadoop单节点,但它无法正常工作。当我执行start-all.shnamenode和jobtracker时,不要启动。您是否在我的文件中看到什么可能是错误的,所以我得到了这个结果?hadoopjps命令的结果:14878日元14823任务追踪器14605二级名称节点14456数据节点start-all.sh命令的结果:admin@vm-sgd10:/usr/local$start-all.shstartingnamenode,loggingto/usr/local/hadoop/libexec/../logs/hadoop-admin-namenode-vm-10.v

java - 打开作业 jar : file in hdfs 时出错

我一直在尝试修复这个问题,但不确定我在这里犯了什么错误!你能帮我解决这个问题吗?非常感谢!我的程序:打包hadoopbook;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hado

java - 如何在 MapReduce 作业开始使用 JobControl 之前执行操作

我有JobControl控制n个作业链。for(inti=0;i我只想在每个作业开始之前清理输出目录;但在作业初始化时不得清除目录。我目前的解决方案是将清除代码放入映射阶段,这会大大减慢执行速度。publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{FileSystemfs=FileSystem.get(context.getConfiguration());if(fs.exists(newPath(context.getConfiguration().

java - 如何将 Hadoop MapReduce 作业限制在一定数量的节点上?

所以,基本上我有一个包含4个数据节点的系统。但是,为了检查我的hadoop应用程序的可伸缩性,我想用1、2和4个节点对其进行测试。那么,如何将hadoop使用的节点数限制为1或2个。我使用的是hadoop2.5.1,我没有系统的管理员权限。此外,如何控制hadoop用于节点的内核数? 最佳答案 您需要管理员权限才能执行所有操作如何将hadoop使用的节点数限制为1或2个。Decommission2-3个节点如何控制hadoop为节点使用的内核数在yarn-site.xml中设置以下配置,为每个节点分配8个vcoreyarn.node

performance - 为什么 hadoop map 任务上的更多内存会使 mapreduce 作业变慢?

我想问一下。为什么如果我在mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts中将mapred-site.xml配置为比默认值更大的值会使我的工作变慢?但是如果我将它配置得太低,那么我会任务失败。而且我认为在这种情况下,我在hadoop上的内存配置是没有必要的......你能给我解释一下吗? 最佳答案 当您增加mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts的值时,您的环境中可能会发生什么>

hadoop - 在 Hadoop 作业中找不到类

我有一个mapreduce作业,它从DocumentDB获取输入。我在源代码的lib目录下添加了jar文件,并在运行作业时使用了-libjars。但我仍然收到jar文件中某个类的类未找到错误。这是我的驱动程序的一部分publicclassMapReduceDriverextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{intres=ToolRunner.run(newConfiguration(),newMapReduceDriver(),args);System.exit(

java - Hadoop 纱作业 : Wrong FS

我用一个vagrantbox安装了一个cloudera集群。启动以下示例时出现错误:hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jargrepinputoutput23'dfs[a-z.]+'我去/var/log/hadoop-yarn查看了日志。有几个日志文件,在yarn-yarn-nodemanager-cdh-master.log中,有如下stackstrace:2015-06-1711:42:42,398INFOSecurityLogger.org.apache.hadoop.ipc.Server:A

shell - 使用 shell 脚本的 Cron 作业

我正在尝试每2分钟使用cronjob运行一个shell脚本。我打开我的终端然后输入crontab-e一旦我执行了这个命令,我就在写我的命令*/2****/home/test/test/test.sh但是我得到了一个错误E486:Patternnotfound:2****请帮忙,因为我是新手,我不知道为什么会这样。如果你给我任何关于hwo的链接和代码来执行cronjob,那将会有所帮助。 最佳答案 如评论中所述,出现以下错误:E486:Patternnotfound:2****是因为你编辑不当造成的。也就是说,您正确地输入了cront